# -*- coding: UTF-8 -*-
# Project : biobase_python
# File : data_clean.py
# IDE : PyCharm
# Author : 博科（鑫贝西）田聪
# Date : 2021/10/26 8:29
# 数据清洗

punctuation = r"""!"#$%&'()*+,./:;<=>?@[\]^_`{|}~，。：；"""
def formats(string: str):
    return string.replace(r'\r\n', '\r\n').replace(r'\r', '\r').replace(r'\n', '\n').replace(r' ', '').replace(
        r'\u200b', '').replace('\u200b', '').replace(r'　', '').replace(r'\xa02', '').replace('\xa02', '').replace(r'\xa0', '').replace('\xa0', '').strip()
# 内容数据清洗
def con_clean(content:list):
    _content = []

    # 去除其中的文件名
    for con in content:
        if '.doc' not in con:
            _content.append(con)
    ct = '\r\n'.join(_content).strip()
    return ct
def title_clena(title:str):
    title = title.strip()
    return title